我们提出了一种基于最佳传输的分类数据集中分布变化的方法。它允许用户确定每个班级受轮班影响的程度,并检索相应的样本对以提供有关其性质的见解。我们说明了它在合成和自然转移示例中的使用。尽管我们提出的结果是初步的,但我们希望这激发了未来的可解释方法的工作,以分析分配变化。
translated by 谷歌翻译
机器学习(ML)可解释性技术可以揭示数据中的不良模式,这些模型模型开发以做出预测 - 一旦部署就会​​造成危害。但是,如何采取行动解决这些模式并不总是很清楚。在ML与人类计算机互动研究人员,医师和数据科学家之间的合作中,我们开发了GAM Changer,这是第一个互动系统,可帮助域专家和数据科学家轻松,负责任地编辑通用的添加剂模型(GAM)和修复有问题的模式。借助新颖的交互技术,我们的工具将可解释性置于行动中 - 使用户能够分析,验证和使模型行为与知识和价值相结合。医师已经开始使用我们的工具来调查和修复肺炎和败血症的风险预测模型,以及在不同领域工作的7位数据科学家的评估突出显示我们的工具易于使用,满足他们的模型编辑需求,并适合他们当前的工作流程。我们的工具以现代网络技术为基础,在用户的网络浏览器或计算笔记本电脑中本地运行,从而降低了使用的障碍。 GAM Changer可在以下公共演示链接中获得:https://interpret.ml/gam-changer。
translated by 谷歌翻译
数据对于机器学习(ML)模型的开发和评估至关重要。但是,在部署所得模型时,使用有问题或不适当的数据集可能会造成危害。为了通过对数据集进行更故意的反思和创建过程的透明度来鼓励负责任的练习,研究人员和从业人员已开始倡导增加数据文档,并提出了几个数据文档框架。但是,几乎没有研究这些数据文档框架是否满足创建和消费数据集的ML从业者的需求。为了解决这一差距,我们着手了解ML从业人员的数据文档感知,需求,挑战和Desiderata,目的是推导设计要求,以便为将来的数据文档框架提供信息。我们对一家大型国际技术公司的14名ML从业者进行了一系列半结构化访谈。我们让他们回答从数据集的数据表中提取的问题列表(Gebru,2021)。我们的发现表明,目前的数据文档方法在很大程度上是临时的,而且本质上是近视的。参与者表达了对数据文档框架的需求,可以适应其上下文,并将其集成到现有的工具和工作流程中,并尽可能自动化。尽管事实上,数据文档框架通常是从负责人的AI的角度出发的,但参与者并未在他们被要求回答的问题与负责的AI含义之间建立联系。此外,参与者通常会在数据集消费者的需求中优先考虑,并提供了不熟悉其数据集可能需要知道的信息。基于这些发现,我们为将来的数据文档框架得出了七个设计要求。
translated by 谷歌翻译
已经开发出各种工具和实践来支持从业者识别,评估和减轻AI系统造成的公平相关危害。然而,现有研究突出了这些工具和实践的预期设计与特定背景下的使用之间的差距,包括由组织因素在塑造公平工作中发挥的作用引起的差距。在本文中,我们研究了一个这样的实践的这些差距:AI系统的分类评估,旨在揭示人口统计组之间的表现差异。通过在三个技术公司的十支队伍中进行半结构化访谈和三十三名艾尔从业人员,我们在设计分列的评估时,我们识别从业者的流程,挑战,并对支持的需求。我们发现从业者在选择绩效指标时面临挑战,识别最相关的直接利益相关者和在其上进行重点的人口统计集团,并收集其进行分类评估的数据集。更一般地说,我们识别对公平工作的影响,这些工作缺乏与直接利益相关者的订婚,优先考虑通过边缘化群体的客户,以及以规模部署AI系统的驱动器。
translated by 谷歌翻译
最近在可解释的机器学习中的进展(ML)研究表明,模型利用数据中的不良模式来进行预测,这可能导致部署危害。但是,尚不清楚我们如何解决这些模型。我们介绍了我们正在进行的工作,游戏改变者,一个开源交互式系统,以帮助数据科学家和领域专家轻松且负责任地编辑其广义添加剂模型(Gams)。通过新颖的可视化技术,我们的工具将可解释性投入到行动 - 使人类用户能够分析,验证和对齐模型行为与他们的知识和价值。使用现代Web技术建造,我们的工具在用户的计算笔记本或Web浏览器中在本地运行,而无需额外计算资源,降低屏障以创建更负责的ML模型。Gam更换器可在https://interpret.ml/gam-changer中获得。
translated by 谷歌翻译
对AI系统的分类评估,其中系统性能分别为不同的人分别评估和报告,在概念上简单。然而,他们的设计涉及各种选择。其中一些选择会影响将获得的结果,从而产生可以绘制的结论;其他人影响了有益和有害的影响 - 将分列的评估将对人们进行分类,包括其数据用于进行评估的人员。我们认为,更深入的了解这些选择将使研究人员和从业者能够设计仔细和决定性的分类评估。我们还争辩说,更好地记录这些选择,以及所做的潜在考虑因素和权衡,将在解释评估的结果和结论时帮助别人。
translated by 谷歌翻译
在线学习算法广泛用于网络上的搜索和内容优化,必须平衡探索和开发,可能牺牲当前用户的经验,以获得将来会导致未来更好决策的信息。虽然在最坏的情况下,与贪婪算法相比,显式探索具有许多缺点,其通过选择当前看起来最佳的动作始终“利用”。我们在数据中固有的多样性的情况下提出了明确的探索不必要。我们在最近的一系列工作中进行了线性上下围匪盗模型中贪婪算法的平滑分析。我们提高了先前的结果,表明,只要多样性条件保持,贪婪的方法几乎符合任何其他算法的最佳可能性贝叶斯遗憾率,并且这种遗憾是最多的$ \ tilde o(t ^ {1/ 3})$。
translated by 谷歌翻译
机器学习社区目前没有记录数据集的标准化过程,这可能导致高赌注域的严重后果。要解决此差距,我们提出了数据集的数据表。在电子行业,每个组件,无论多么简单或复杂,都附带了一个描述其操作特征,测试结果,推荐使用和其他信息的数据表。通过类比,我们建议每个数据集都附有一个数据表,这些表记录了它的动机,组成,收集过程,推荐用途等。数据集的数据表将有助于在数据集创建者和数据集消费者之间更好地沟通,并鼓励机器学习界优先考虑透明度和问责制。
translated by 谷歌翻译
We propose a novel task, G4C (Goal-driven Guidance Generation in Grounded Communication), for studying goal-driven and grounded natural language interactions. Specifically, we choose Dungeons and Dragons (D&D) -- a role-playing game consisting of multiple player characters and a Dungeon Master (DM) who collaborate to achieve a set of goals that are beneficial to the players -- as a testbed for this task. Here, each of the player characters is a student, with their own personas and abilities, and the DM is the teacher, an arbitrator of the rules of the world and responsible for assisting and guiding the students towards a global goal. We propose a theory-of-mind-inspired methodology for training such a DM with reinforcement learning (RL), where a DM: (1) learns to predict how the players will react to its utterances using a dataset of D&D dialogue transcripts; and (2) uses this prediction as a reward function providing feedback on how effective these utterances are at guiding the players towards a goal. Human and automated evaluations show that a DM trained with RL to generate guidance by incorporating a theory-of-mind of the players significantly improves the players' ability to achieve goals grounded in their shared world.
translated by 谷歌翻译
We present NusaCrowd, a collaborative initiative to collect and unite existing resources for Indonesian languages, including opening access to previously non-public resources. Through this initiative, we have has brought together 137 datasets and 117 standardized data loaders. The quality of the datasets has been assessed manually and automatically, and their effectiveness has been demonstrated in multiple experiments. NusaCrowd's data collection enables the creation of the first zero-shot benchmarks for natural language understanding and generation in Indonesian and its local languages. Furthermore, NusaCrowd brings the creation of the first multilingual automatic speech recognition benchmark in Indonesian and its local languages. Our work is intended to help advance natural language processing research in under-represented languages.
translated by 谷歌翻译